## ΠΑΡΑΔΟΤΕΟ 1ου ΕΡΓΑΣΤΗΡΙΟΥ (Πρώτο Μέρος)

# Μαυρομανώλης Αντώνιος, Τσιρώνης, Αλέξανδρος antomavr@ece.auth.gr

**1.** Από το αρχείο starter\_se.py οι αρχικές παράμετροι που έχουν περάσει στον gem5 για το σύστημα προς εξομοίωση είναι:

• Cache line size: 64

• Voltage: "3.3V"

- CPU model to use: "minor" (κατά την εκτέλεση της εντολής (\$ ./build/ARM/gem5.opt -d hello\_result configs/example/arm/starter\_se.py --cpu="minor" "tests/test-progs/hello/bin/arm/linux/hello") υπάρχει το flag --cpu="minor".)
- **CPU frequency**: 1GHz"

#### Default:

• Number of CPU cores: 1

Type of memory to use: "DDR3 1600 8x8"

Number of memory channels: 2

Number of memory ranks per channel: None

Specify the physical memory size: "2GB"

**2.** Ανοίγοντας τα αρχεία config.json και config.ini επαληθεύεται η απάντηση του πρώτου ερωτήματος, καθώς τα στοιχεία αντιστοιχούν μεταξύ τους.

Κομμάτι κώδικα από το starter se.py:

```
□def main():
187
           parser = argparse.ArgumentParser(epilog= doc )
188
189 | 190 | 191 | P
           parser.add_argument("--cpu", type=str, choices=cpu_types.keys(),
                                help="CPU model to use")
193
           parser.add_argument("--cpu-freq", type=str, default="4GHz")
parser.add_argument("--num-cores", type=int, default=1,
194
195 =
196 -
197 =
           help="Number of CPU cores")
parser.add_argument("--mem-type", default="DDR3_1600_8x8",
198
                               choices=ObjectList.mem_list.get_names(),
199
200
                                 help = "type of memory
           parser.add_argument("--mem-channels", type=int, default=2,
201 -
202 E
203 -
204 E
                                help = "number of memory channels";
           parser.add_argument("--mem-ranks", type=int, default=None,
                                help = "number of memory ranks per channel")
           parser.add_argument("--mem-size", action="store", type=str,
205
206
                                 help="Specify the physical memory size")
```

#### Κομμάτι κώδικα από το config.json:

```
111 },
112 "cache line size": 64,
```

#### Κομμάτια κώδικα από το config.ini:

```
cache_line_size=64
eventq_index=0
exit_on_work_items=false
init_param=0
```

[system.voltage\_domain]
type=VoltageDomain
eventq\_index=0
voltage=3.3

#### 3. In-order CPU types supported by gem5

#### AtomicSimpleCPU:

Ο Atomic είναι επεξεργαστής που χρησιμοποιεί Atomic πρόσβαση στη μνήμη. Στον gem5, ο AtomicSimpleCPU εκτελεί όλες τις πράξεις για μια εντολή για κάθε CPU tick και μπορεί να έχει μια συνολική εκτίμηση του συνολικού χρόνου πρόσβασης στη μνήμη cache χρησιμοποιώντας τις εκτιμήσεις καθυστέρησης από τις ατομικές προσβάσεις. Φυσικά, ο AtomicSimpleCPU παρέχει την ταχύτερη λειτουργική προσομοίωση, και χρησιμοποιείται για fast-forwarding για να φτάσει σε περιοχή ενδιαφέροντος (ROI) στο gem5.

## **AtomicSimpleCPU**



#### MinorCPU:

Πρόκειται για έναν επεξεργαστή με 4 στάδια pipelining. Τα τέσσερα στάδια είναι η fetch1, η fetch2, η decode και η execute. Η πρόσβαση ITLB και η λήψη της εντολής από την κύρια μνήμη γίνεται στο fetch1. Το fetch2 είναι υπεύθυνο για την αποκωδικοποίηση της εντολής, η decode είναι υπεύθυνη για book-keeping και η execute υλοποιεί το logic for issue, την εκτέλεση, τη μνήμη, το writeback και το commit. Όλα αυτά τα στάδια ορίζονται ως SimObjects στην κλάση Pipeline, η οποία υλοποιεί ολόκληρο το pipelining. Τα διαφορετικά στάδια του pipeline συνδέονται μεταξύ τους με Latches.

```
class Pipeline {
    /* Latches to connect the stages */
    Latch<ProrwardLineData> f1ToF2;
    Latch<BranchData> f2ToF1;
    Latch<ForwardInstData> f2ToD;
    Latch<ForwardInstData> dToE;
    Latch<BranchData> eToF1;

    /* Pipeline Stages */
    Execute execute;
    Decode decode;
    Fetch2 fetch2;
    Fetch1 fetch1

    /* Action to be performed at each cycle (tick) */
    void evaluate();
}
```



#### TimingSimpleCPU:

Ο TimingSimpleCPU υιοθέτησε την πρόσβαση μνήμης χρονισμού αντί της Atomic. Αυτό σημαίνει ότι περιμένει, μέχρι η πρόσβαση στη μνήμη να επιστρέφει, πριν προχωρήσει, επομένως παρέχει κάποιο επίπεδο χρονισμού. Ο TimingSimpleCPU είναι επίσης γρήγορος στην εκτέλεση δεδομένου ότι απλοποιεί ορισμένες διαδικασίες, συμπεριλαμβανομένου του pipeling, πράγμα που σημαίνει ότι μόνο μία εντολή υπόκειται σε επεξεργασία οποιαδήποτε στιγμή. Κάθε αριθμητική εντολή εκτελείται από το TimingSimpleCPU σε έναν μόνο κύκλο, ενώ απαιτούνται πρόσβαση στη μνήμη πολλαπλούς κύκλους.



# 3.a. TimingSimpeCPU:

```
# Number of ticks from beginning of simulation (restored from checkpoints and never reset)
# Simulator instruction rate (inst/s)
# Number of bytes of host memory used
# Simulator op (including micro ops) rate (op/s)
# Real time elapsed on the host
# Simulator tick rate (ticks/s)
# Frequency of simulated ticks
# Number of instructions simulated
# Number of ops (including micro ops) simulated
# Number of seconds simulated
# Number of ticks simulated
# Number of branches fetched
# Number of branches fetched
# Number of instructions committed
# Number of ops (including micro ops) committed
------ Begin Simulation Statistics ---
final_tick
host_inst_rate
                                                                                                                                                       519226
host mem usage
                                                                                                                                                        665148
host_op_rate
                                                                                                                                                       612038
nost_op_rate
host_seconds
host_tick_rate
sim_freq
sim_insts
sim_ops
sim_seconds
                                                                                                                                             867410770
                                                                                                                                                  173192
204225
0.000289
sim ticks
system.cpu.Branches
                                                                                                                                                          36832
  system.cpu.committedInsts
system.cpu.committedOps
                                                                                                                                                       173192
                                                                                                                                                       204225
```

#### MinorCPU:

```
-- Begin Simulation Statistics ----
  final tick
                                                                                                                                                             139169000
                                                                                                                                                                                                                                                                             # Number of ticks from beginning of simulation (restored from checkpoints # Simulator instruction rate (inst/s)
# Number of bytes of host memory used
# Simulator op (including micro ops) rate (op/s)
# Real time elapsed on the host
# Simulator tick rate (ticks/s)
# Frequency of simulated ticks
# Number of instructions simulated
# Number of ops (including micro ops) simulated
# Number of seconds simulated
# Number of seconds simulated
# Number of correct BTB predictions (this stat may not work properly.
# BTB Hit Percentage
# Number of BTB lookups
# Number of BTB lookups
# Number of BTB lookups
# Number of incorrect RAS predictions.
# Number of conditional branches incorrect
# Number of conditional branches predicted
# Number of indirect target hits.
# Number of indirect predictor lookups.
# Number of indirect misses.
# Number of fines the RAS was used to get a target.
# Number of fines the RAS was used to get a target.
# Number of instructions committed
# Number of ops (including micro ops) committed
# CPI: cycles per instruction
# CPI: cycles per instruction
# Number of pops (including micro ops) which were discarded before commit
                                                                                                                                                                                                                                                                                 # Number of ticks from beginning of simulation (restored from checkpoints and never reset)
final_tick
host_inst_rate
host_mem_usage
host_op_rate
host_seconds
host_tick_rate
sim_freq
sim_insts
sim_ons
                                                                                                                                                                         253424
                                                                                                                                                                                                                                                                                 # Simulator instruction rate (inst/s)
                                                                                                                                                                         669504
                                                                                                                                                                          300188
 sim_insts
sim_ops
sim_seconds
sim_ticks
system.cpu.branchPred.BTBCorrect
system.cpu.branchPred.BTBHitPct
system.cpu.branchPred.BTBHits
system.cpu.branchPred.BTBLookups
system.cpu.branchPred.BTBLookups
system.cpu.branchPred.BTBLookups
                                                                                                                                                                         206316
                                                                                                                                                                  0.000139
                                                                                                                                                              139169000
                                                                                                                                                              47.298646
  system.cpu.branchPred.RASInCorrect
                                                                                                                                                                               1712
  system.cpu.branchPred.condIncorrect
  system.cpu.branchPred.condPredicted
                                                                                                                                                                            26275
system.cpu.branchPred.condPredicted
system.cpu.branchPred.indirectHits
system.cpu.branchPred.indirectHits
system.cpu.branchPred.indirectHisses
system.cpu.branchPred.lookups
system.cpu.branchPred.usedRAS
system.cpu.branchPredidirectHispredicted
                                                                                                                                                                               1795
                                                                                                                                                                            2755
960
39483
4319
                                                                                                                                                                         174133
  system.cpu.committedInsts
  system.cpu.committedOps
                                                                                                                                                                          206316
  system.cpu.cpi
system.cpu.discardedOps
                                                                                                                                                                  1.598422
```

#### 3.b.

Χρησιμοποιώντας διαφορετικά μοντέλα CPU παρατηρούμε διαφορά στον αριθμό των ticks, στο instruction rate, στον χρόνο εκτέλεσης αλλά και στο tick rate. Αυτό συμβαίνει επειδή το pipelining σε κάθε μοντέλο είναι διαφορετικό και κατά συνέπεια αλλάζει ο αριθμός των εντολών που εκτελούνται σε κάθε κύκλο ρολογιού.

# 3.c. Frequency 1GHz→2GHz TimingSimpeCPU:

```
final_tick 289462000 # Number of ticks from beginning of simulation (restored from checkpoints and never reset)
host_inst_rate 566336 # Simulator instruction rate (inst/s)
host_mem_usage 665152 # Number of bytes of host memory used
host_op_rate 667535 # Simulator op (including micro ops) rate (op/s)
host_seconds 0.31 # Real time elapsed on the host
host_tick_rate 946051945 # Simulator tick rate (ticks/s)
sim_freq 1000000000000 # Frequency of simulated ticks
sim_insts 173192 # Number of instructions simulated
sim_ops 204225 # Number of ops (including micro ops) simulated
sim_seconds 0.000028 # Number of ops (including micro ops) simulated
sim_ticks 289462000 # Number of seconds simulated
system.cpu.Branches 36832 # Number of ticks simulated
system.cpu.committedInsts 173192 # Number of instructions committed
system.cpu.committedOps 204225 # Number of instructions committed
system.cpu.committedOps 204225 # Number of instructions committed
system.cpu.committedOps 204225 # Number of ops (including micro ops) committed
```

#### MinorCPU:

```
--------- Begin Simulation Statistics ----final_tick
                                                                                                                                             139169000
                                                                                                                                                                                                                                                   # Number of ticks from beginning of simulation (restored from checkpoints and never reset)
final_tick
host_inst_rate
host_mem_usage
host_op_rate
host_seconds
host_tick_rate
                                                                                                                                                                                                                                                   # Number of ticks from beginning of simulation (i
# Simulator instruction rate (inst/s)
# Number of bytes of host memory used
# Simulator op (including micro ops) rate (op/s)
# Real time elapsed on the host
# Simulator tick rate (ticks/s)
                                                                                                                                                       266712
                                                                                                                                                        669500
                                                                                                                                                       315937
                                                                                                                                   0.65
213104106
1000000000000
sim_freq
sim_insts
                                                                                                                                                                                                                                                       # Frequency of simulated ticks
                                                                                                                                                      174133
                                                                                                                                                                                                                                                 # Number of instructions simulated
# Number of ops (including micro ops) simulated
# Number of seconds simulated
# Number of seconds simulated
# Number of ticks simulated
# Number of correct BTB predictions (this stat may not work properly.
# BTB Hit Percentage
# Number of BTB hits
# Number of BTB lookups
# Number of BTB lookups
# Number of incorrect RAS predictions.
# Number of conditional branches incorrect
# Number of conditional branches predicted
# Number of indirect target hits.
# Number of indirect target hits.
# Number of indirect misses.
# Number of indirect misses.
# Number of times the RAS was used to get a target.
# Number of mispredicted indirect branches.
                                                                                                                                                                                                                                                    # Number of instructions simulated
sim_insts
sim_ops
sim_seconds
sim_ticks
system.cpu.branchPred.BTBCorrect
system.cpu.branchPred.BTBHitPct
system.cpu.branchPred.BTBHits
cyttom.cpu.branchPred.BTBHIts
                                                                                                                                                       206316
                                                                                                                                                 0.000139
                                                                                                                                              139169000
                                                                                                                                             47.298646
                                                                                                                                                         32058
 system.cpu.branchPred.BTBLookups
system.cpu.branchPred.aRSInCorrect
system.cpu.branchPred.RSInCorrect
system.cpu.branchPred.condIncorrect
system.cpu.branchPred.condPredited
system.cpu.branchPred.indirectHits
system.cpu.branchPred.indirectMisses
system.cpu.branchPred.indirectMisses
                                                                                                                                                             1712
                                                                                                                                                         26275
                                                                                                                                                         39483
 system.cpu.branchPred.lookups
system.cpu.branchred.lookups
system.cpu.branchPred.usedRAS
system.cpu.committedInsts
system.cpu.committedOps
system.cpu.cpi
system.cpu.cpi
system.cpu.discardedOps
                                                                                                                                                             4319
                                                                                                                                                                                                                                                   # Number of times the MAS was used to get a target.
# Number of mispredicted indirect branches.
# Number of instructions committed
# Number of ops (including micro ops) committed
# CPI: cycles per instruction
# Number of ops (including micro ops) which were discarded before commit
                                                                                                                                                                    283
                                                                                                                                                       174133
```

### Πηγές:

- http://www.gem5.org/Main\_Page
- https://nitish2112.github.io/post/gem5-minor-cpu/
- http://www.m5sim.org/SimpleCPU
- ► <a href="https://raw.githubusercontent.com/arm-university/arm-gem5-rsk/master/gem5-rsk.pdf">https://raw.githubusercontent.com/arm-university/arm-gem5-rsk/master/gem5-rsk.pdf</a>

**Github Link:** <a href="https://github.com/antomavr/gem5">https://github.com/antomavr/gem5</a> lab1